4 Fundamentos Matemáticos

4.1 A linguagem como problema matemático

Para que uma máquina possa processar linguagem, é necessário traduzir texto em representações matemáticas. A linguagem humana, com sua riqueza de nuances, ambiguidades e estruturas complexas, não é diretamente interpretável por algoritmos matemáticos. portanto, uma das primeiras tarefas na construção de um LLM é criar representações numéricas adequadas.

O texto é transformado em números através de um processo chamado tokenização, onde palavras, subpalavras ou caracteres são mapeados para inteiros. Esses inteiros são então convertidos em vetores densos de números reais através de camadas de embedding. Cada token recebe um vetor associado que captura certas propriedades semânticas e sintáticas desse token.

4.2 Espaços Vetoriais e Embeddings

Um conceito central nos LLMs é o de espaço vetorial. Cada palavra, após o processamento pelo modelo, existe como um ponto — ou mais precisamente, como um vetor — em um espaço de alta dimensionalidade. A dimensionalidade desses espaços varia, mas comumente está na ordem de centenas ou milhares de dimensões. A dimensão refere-se ao número de valores independentes que definem cada vetor.

A magia dos embeddings reside no fato de que relações semânticas entre palavras são refletidas como relações geométricas entre seus vetores. Se você pegar o vetor da palavra “rei”, subtrair o vetor de “homem” e adicionar o vetor de “mulher”, obterá um vetor muito próximo do vetor de “rainha”. Essa propriedade, conhecida como analogia aritmética de word2vec, demonstra que os embeddings capturam relações semânticas de forma quantificável.

4.3 Probabilidade e Previsão

No coração de todo modelo de linguagem está o princípio da probabilidade condicional. Dado uma sequência de tokens anteriores, o modelo calcula a probabilidade de cada token possível do vocabulário ser o próximo. Matematicamente, se denotarmos uma sequência de tokens como x₁, x₂, …, xₜ, o modelo calcula P(xₜ₊₁ | x₁, x₂, …, xₜ).

Essa distribuição de probabilidade é calculada através de múltiplas camadas de transformação neural, cada uma processando a representação intermediária da sequência e refinando-a progressivamente. Durante o treinamento, o modelo ajusta seus parâmetros para maximizar a probabilidade dos tokens reais que aparecem no texto de treinamento.

A saída final do modelo é tipicamente uma distribuição de probabilidade sobre todo o vocabulário. Durante a geração de texto, diferentes estratégias de amostragem podem ser usadas para selecionar o próximo token, desde a escolha determinística do token mais provável até métodos estocásticos que introduzemvariabilidade criativa.

4.4 Funções de Ativação e Normalização

As redes neurais que compõem os LLMs utilizam diversas funções matemáticas para transformar dados entre camadas. As funções de ativação, como ReLU (Rectified Linear Unit), GELU (Gaussian Error Linear Unit) e SwiGLU, introduzem não-linearidades que permitem ao modelo aprender relações complexas entre entrada e saída.

A normalização é outro componente crucial. Técnicas como Layer Normalization e RMS Normalization estabilizam o treinamento ao garantir que os valores intermediários mantenham magnitudes adequadas, evitando problemas numéricos que poderiam dificultar ou impossibilitar o aprendizado.